Desafio final Arquiteto de Big Data

Enunciado I

Uma rede de supermercados viu a necessidade de criar uma maneira de entender e conhecer mais o seu público-alvo. Diante desse desafio, a rede precisa criar um processo de Big Data para auxiliar essa análise. A rede quer conhecer seu cliente como um todo, das compras que foram realizadas aos produtos mais vendidos e, dessa forma, criar uma estrutura que permita tomar decisões mais assertivas.

Os analistas de Big Data da rede identificaram que é necessário desenvolver um processo bem elaborado para transformar dados variados em informações úteis. Para isso é necessário:

  1. Coletar dados em diversas fontes;
  2. Armazenar os dados em um repositório;
  3. Realizar análises de dados coletados;
  4. Criar modelo analítico de Machine Learning;
  5. Criar visualizações para os dados processados.

Para esse primeiro momento, vamos analisar os dados e realizar um agrupamento dos clientes baseados em algumas características que eles possuem.

As compras foram separadas por usuário. Deste modo, cada compra necessita possuir cliente, produto, quantidade de produtos, valor unitário e valor total da compra.

ATENÇÃO Informação importante: não existe compra sem produto ou sem cliente.

Os dados de clientes e compras é um dado fictício utilizado para o desenvolvimento das atividades a serem realizadas neste trabalho. Deste modo, os dados foram criados de forma aleatória e não possuem nenhuma relação com dados no mundo real.

Atividades do enunciado I Os alunos deverão desempenhar as seguintes atividades:

  1. Coletar dados das seguintes fontes de dados. • compras.xls o Contém dados das compras realizadas por cliente; • clientes.json o Contém dados de clientes (análise de perfil); • estados.txt o Contém dados de estados dos clientes; • O link: https://profleandrolessa.wordpress.com/exercicio-de-coleta-de- dados/ o Contém dados de produtos.

  2. Criar estrutura de armazenamento;

  3. Avaliar dados ausentes das colunas e corrigi-los;

  4. Criar algoritmo de clusterização k-means;

  5. Responder as questões 1 a 10 práticas do desafio.

Importando os datasets:

Limpeza dos dados:

Aplicação do algoritmo k-means:

Para as atividades relacionados a clusterização realizada pelo k-means, crie um novo dataframe (compras_clientes) com os dados obtidos entre a relação das tabelas cliente, estado, produto e compras.

Crie uma nova base de dados a partir de compras_clientes com as colunas de idade e valor total da compra. Calcule o WCSS para esses dados e responda: qual o valor de WCSS para o terceiro cluster? PS.: Atenção para a forma de apresentação do número do cluster no python.

Questões:

Construa um histograma de distribuição de idades das pessoas que são hipertensas e que realizaram compra de produtos da classe "Carnes e Frios". Considere um gráfico de barras com 20 colunas.

Qual a proporção de homens e mulheres diabéticos que compraram produtos da classe "hortifruti"?

209 cod 0: feminino

202 cod 1: masculino

Qual é a classe de produtos que possui maior média de compras para as pessoas do estado de São Paulo? Informe a sua respectiva média.

Qual é a quantidade de casados e hipertensos estão presentes no cluster 0? (cluster 0 = cluster 2)

Qual é o número total de diabéticos para o cluster 3?

Quantos produtos distintos existem no dataset de mercado?

Qual o número de compras que foram realizadas contendo espaguete e água mineral na mesma compra?

Enunciado II

Após a implantação de todas as etapas do processo do Big Data, os analistas identificaram a necessidade de entender melhor a relação entre os produtos comprados pelos clientes. A ideia é encontrar padrões ocultos nos dados, que possam auxiliar na tomada de decisão e assim criar promoções, kits de vendas e melhorar disponibilização de produtos nas prateleiras dos supermercados, por exemplo. Para isso, antes de implementar o modelo em produção, os analistas vão realizar uma POC com dados de vendas de produtos de outra rede de supermercados e, em seguida, aplicar o modelo nos dados de produção do supermercado.

Atividades do enunciado II

Os alunos deverão desempenhar as seguintes atividades:

  1. Coletar dados do dataset mercado.csv;
  2. Analisar os dados coletados;
  3. Tratar os dados coletados;
  4. Avaliar dados ausentes nas colunas;
  5. Identificar os itens frequentes;
  6. Criar regras de associação;
  7. Responder as questões 11 a 15 práticas do desafio;

Regras de assciação: algoritmo a priori

Analisando o LIFT de cada regra de associação, vemos que as regras mais fortes são: